【祝】Amazon Athena が東京リージョンにやってきました
おはようございます。藤本です。
本日、うれしいアップデートがありました。ついに Amazon Athena が東京リージョンにやってきました。東京リージョンリリースを待っていた方も多いのではないでしょうか?
Amazon Athena is now available in Asia Pacific (Singapore) and Asia Pacific (Tokyo)
Amazon Athena
Amazon Athena は S3 にある CSV、JSONなどのテキストファイルから SQL によってデータの抽出や集計を行えるサービスです。弊社ブログでも色々なことを試していますので是非ご覧ください。
東京リージョンにやってきたことで何が嬉しい?
今までは US、ヨーロッパの 4リージョンでサービス提供されていました。Amazon Athena は別リージョンの S3 データを扱うことができたので、別リージョンの S3 に対してもクエリを行うことはできました。 ただし、S3 のリージョン間データ転送料とその転送による処理時間がかかっていました。
費用(S3 のリージョン間データ転送料)に関しては S3 の料金ドキュメントをご参照ください。安価で大容量データのクエリができることも売りの一つの Amazon Athena の利用料金よりも S3 のデータ転送量の方が高くなっていました。
https://aws.amazon.com/jp/s3/pricing/
処理時間は試してみましょう。
処理時間を比較してみた
サンプルで定義されている東京リージョンの S3 に配置されている ELB のログデータを使って、東京リージョンの Athena、バージニアリージョンの Athena とでクエリの実行時間を比較してみました。一つの比較結果として参考にいただければと思います。
サンプルデータ
135万件のログデータをテストデータとして扱います。(Athena のサンプルデータとしては少ない気もしますが、、、)
データサイズは 387.7 MiB です。
$ aws s3 ls s3://athena-examples-ap-northeast-1/elb/plaintext/ --recursive --human --sum 2017-05-08 13:10:53 11.2 MiB elb/plaintext/2015/01/01/part-r-00000-ce65fca5-d6c6-40e6-b1f9-190cc4f93814.txt 2017-05-08 13:10:53 8.4 MiB elb/plaintext/2015/01/01/part-r-00001-ce65fca5-d6c6-40e6-b1f9-190cc4f93814.txt Total Objects: 51 Total Size: 387.7 MiB
バージニアリージョンの Athena からクエリする
全件クエリを 3回実行しました。
結果は 23.07秒、23.62秒、21.63秒
東京リージョンの Athena からクエリする
同じく、全件クエリを 3回実行しました。
結果は 17.93秒、17.97秒、17.55秒
もう少し結果にバラつきが出るかと思っていましたが、安定して S3 と同一リージョンの方が 5〜6秒ほど早いですね。
まとめ
待ちに待った Amazon Athena が来ました。東京リージョンの S3 にあるデータがガンガンクエリして、分析しちゃいましょう。